不断发布优秀产品和创新,同时让每个人都可以使用它们。以用户为中心,通过优质产品和服务,让用户的生活更为精彩! 坚持”利他”文化,做对用户和社会有价值、有长期利益的事情。在产品开发过程中,保持开放的心态
内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
>"><九霄天绝> <九霄天绝>{随机干扰码}{随机干扰码}
内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
">AI导读
"当24人小公司用3000万美元造出比英伟达快48倍的AI芯片,通用GPU的黄昏已然来临。Taalas的HC1芯片将Llama3模型直接蚀刻进硅片,每秒处理17000个token,能耗仅为对手1/20,如同在邮票上雕刻百科全书——这不是技术升级,而是规则改写。"
内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
2026-03-20 11:46:00内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
">AI导读
"当24人小公司用3000万美元造出比英伟达快48倍的AI芯片,通用GPU的黄昏已然来临。Taalas的HC1芯片将Llama3模型直接蚀刻进硅片,每秒处理17000个token,能耗仅为对手1/20,如同在邮票上雕刻百科全书——这不是技术升级,而是规则改写。"
内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
2026-03-20 11:46:00内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
">AI导读
"当24人小公司用3000万美元造出比英伟达快48倍的AI芯片,通用GPU的黄昏已然来临。Taalas的HC1芯片将Llama3模型直接蚀刻进硅片,每秒处理17000个token,能耗仅为对手1/20,如同在邮票上雕刻百科全书——这不是技术升级,而是规则改写。"
内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
2026-03-20 11:46:00内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
">AI导读
"当24人小公司用3000万美元造出比英伟达快48倍的AI芯片,通用GPU的黄昏已然来临。Taalas的HC1芯片将Llama3模型直接蚀刻进硅片,每秒处理17000个token,能耗仅为对手1/20,如同在邮票上雕刻百科全书——这不是技术升级,而是规则改写。"
内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
2026-03-20 11:46:00内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
">AI导读
"当24人小公司用3000万美元造出比英伟达快48倍的AI芯片,通用GPU的黄昏已然来临。Taalas的HC1芯片将Llama3模型直接蚀刻进硅片,每秒处理17000个token,能耗仅为对手1/20,如同在邮票上雕刻百科全书——这不是技术升级,而是规则改写。"
内容由AI智能生成
当整个硅谷都在为抢购英伟达H100挤破头时,一家24人的小公司悄悄改写了游戏规则。Taalas推出的HC1芯片,运行Llama3.18B模型时竟达到17000tokens/秒,这个数字是英伟达B200的48倍。更惊人的是,他们实现这个突破只用了3000万美元研发经费——还不够买200块H100显卡。
把AI模型"焊死"在硅片上
传统GPU像瑞士军刀,什么任务都能处理但效率平平。而HC1芯片更像是专门为Llama3.18B定制的"断头台",它的秘密在于将模型直接蚀刻进硅片。通过台积电N6工艺的掩模ROM技术,Llama3.18B的80亿参数被永久固化在815mm²的芯片上,相当于把整个大模型"焊"进了晶体管里。
这种极端设计带来三大颠覆:首先,数据不需要在内存和计算单元间搬运,省去了90%的功耗;其次,所有计算单元只为Llama3服务,利用率接近100%;最后,芯片内部采用存算一体架构,存储带宽达到传统GPU的200倍。这就像把F1赛车的发动机直接装在自行车上,根本不是一个维度的较量。
30张卡=1个核电站?不,只要2.5千瓦
英伟达GB200NVL72系统需要120千瓦液冷机柜,而10块HC1芯片组成的集群仅需2.5千瓦空气冷却。能效比差距源自三个关键设计:砍掉所有通用计算单元,省去昂贵的HBM显存,用结构化ASIC替代全定制芯片。这种"断舍离"哲学让每瓦性能提升50倍,成本降至GPU方案的1/20。
但代价同样明显:HC1这辈子只能运行Llama3.18B。想换模型?得重新流片。创始人巴伊奇对此的回应很"邪修":"当Meta更新Llama4时,我们只需要两个月就能造出新芯片——这个速度比大模型迭代还快。"
24人团队如何颠覆行业?
这支由AMD前架构师领军的"特种部队",把ASIC技术玩到了极致。他们开发的结构化ASIC方案,只需修改两层掩模就能适配新模型,将流片周期从6个月压缩到60天。更疯狂的是芯片布局:815mm²的面积逼近光罩极限,晶体管密度是竞品的3倍,就像在邮票上雕刻整部百科全书。
实测数据更令人窒息:在30芯片集群上,HC1实现每秒12000tokens的稳定输出。这意味着处理2000字的文章只需0.1秒,人类刚看清问题,AI已经写完答案。这种压迫感让测试者形容:"不是AI在回复,而是答案直接拍在脸上。"
当英伟达在堆料竞赛中越走越远,Taalas证明极简主义依然有效。他们的成功揭示了一个残酷事实:在特定领域,专用芯片对通用GPU的碾压就像机关枪对弓箭的降维打击。虽然HC1不能玩《原神》,但在大模型推理这个赛道,它让价值万亿美元的GPU帝国首次显露出软肋。
这场颠覆背后是AI产业的新命题:当模型架构趋于稳定,是否还需要为"万能"支付十倍成本?或许未来属于两种极端:英伟达的"全能战士",和Taalas式的"单科状元"。唯一确定的是,那个靠堆GPU就能赢的时代,正在被24个"芯片邪修"亲手终结。
2026-03-20 11:46:00一级做ae是免费:无需付费入门级AE编辑软件现已全面开放使用。